搜索"DeepSeek V4"的结果

共找到1个相关文章

26年春节又热闹了 新论文暗示DeepSeek V4已完成训练

发布时间:2026-01-02 浏览:95
DeepSeek在2026年元旦假期发布论文,提出“流形约束超连接”框架,解决HC放大倍数过高导致训练崩溃的问题:27B参数模型下,mHC把放大倍数从约3000降至1.6,训练时间仅增6.7%,复杂推理、阅读理解任务准确率分别提升7.2、6.9个百分点。论文暗示已完成新一代基座模型DeepSeek V4训练,预计2月初发布,将支持FP8算子、国产AI芯片及多模态;是否再推R2推理模型未定。